Análisis Factorial
A veces no es posible medir de forma directa a las variables de interés. Por ejemplo, ideación suicida, inteligencia, depresión, calidad de vida, etc.
En estos casos se recoge información sobre variables indirectas que se encuentran relacionadas con los conceptos o constructos de interés, los cuales reciben el nombre de Factores Latentes y el método se conoce como análisis factorial.
Es una técnica para identificar factores comunes. Por ejemplo:
Las competencias que pueden ser medidas en las diferentes asignaturas se dividen en razonamiento cuantitativo, lectura crítica, comunicación escrita, competencias ciudadanas e idiomas (ICFES).
Algunos síntomas clínicos de los enfermos mentales se clasifican en síntomas de tipo neurótico y síntomas de tipo psicótico.
Los ítems del instrumento o test de BURNOUT conforman tres dimensiones latentes: autoestima, agotamiento y despersonalización.
Spearman creía que existe un factor subyacente, denominado factor G, que influye en la capacidad de una persona para realizar diversas tareas.
Si alguien es bueno resolviendo acertijos, también podría ser bueno comprendiendo ideas complejas o aprendiendo nuevas habilidades. Este factor de inteligencia general, o factor G, es la habilidad innata que nos ayuda a desempeñarnos bien ante diversos desafíos mentales.
La teoría de los dos factores de Spearman postula que la inteligencia se compone de dos tipos de factores: un factor general (G) y una habilidad específica (S).
Factor G: representa una inteligencia general que influye en el desempeño en una amplia variedad de tareas cognitivas, abarcando habilidades como el razonamiento, la resolución de problemas, el aprendizaje y la comprensión de ideas complejas.
Factor S: son propios de actividades cognitivas particulares, representan habilidades especializadas que no se generalizan a diferentes tareas.
Donde \(F_1, \ldots, F_q\) son los factores comunes con \(q<p\); mientras que \(U_1, \ldots, U_p\) son los factores únicos. De esta manera los \(q+p\) factores son variables incorrelacionadas.
\(h_i^2= a_{i1}^2+\ldots+a_{iq}^2\) y representa la proporción de información de la variable \(i\) que es explicada por los factores comunes del modelo - COMUNALIDAD. Mientras que \(d_i^2\) es la contribución a la UNICIDAD.
Factores comunes entre variables. \(X_1\), \(X_3\) y \(X_4\) comparten el factor 1, \(X_6\) y \(X_2\) comparten el factor 2 y \(X_5\) coincide con el factor 3
El instrumento del DASS 21 permite construir una escala de Depresión, Ansiedad y Estrés (DASS-21). Investigue más sobre su contrucción y propiedades psicométricas. Una versión del instrumento puede ser consultada aquí
Explore el conjunto del datos DASS21.sav el cual contiene los resultados para una muestra de 800 personas de Colombia realizada en el año 2022.
Puede usar lapply(dass, function(x) attributes(x)$label) para ver las etiquetas de las preguntas.
MODELO FACTORIAL:
\[\mathbf{X} = \mathbf{AF} + \mathbf{DU}\]
La matriz de correlación de las variables observadas es:
\[\mathbf{R} = \mathbf{AA'}+\mathbf{D}^2\] La matriz de correlación en el espacio de dimensión reducida es:
\[\mathbf{R^*} = \mathbf{AA'}\]
La diagonal contiene las comunalidades. La matriz A es la matriz de saturaciones o cargas a ser estimadas
La medida de KMO (Kaiser-Meyer-Olkin) evalúa si los datos son adecuados para realizar un análisis factorial. Representa la proporción de varianza común entre las variables frente a la varianza única.
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = df)
Overall MSA = 0.95
MSA for each item =
Item1 Item2 Item3 Item4 Item5 Item6 Item7 Item8 Item9 Item10 Item11
0.94 0.93 0.94 0.90 0.95 0.96 0.94 0.96 0.95 0.96 0.96
Item12 Item13 Item14 Item15 Item16 Item17 Item18 Item19 Item20 Item21
0.95 0.95 0.96 0.94 0.96 0.94 0.96 0.96 0.94 0.89
Valores cercanos a 1 indican que el análisis factorial es apropiado; valores bajos (por debajo de 0.5)
Consiste en suponer que todas las variables tienen la misma varianza y no están correlacionadas.
\[ H_0: \mathbf{V} = \sigma^2 \mathbf{I}\] \[ H_1: \mathbf{V} \neq \sigma^2 \mathbf{I}\]
La medida de adecuación muestral se hace sobre \(\mathbf{R}\), Box (1949) y Bartlett (1954):
\[\chi^2 = - \left[n-1-\frac{1}{6}(2p+5)\right]\ln|\mathbf{R}|\]
En el paquete psych se calcula con la función cortest.bartlett()
Dado que el \(p\)-valor es menor que un nivel \(\alpha\) entonces se concluye que hay presencia suficiente de asociación, así que los datos son adecuados para un análisis factorial.
Los factores se extraen con métodos de mínimos cuadrados o máxima verosimilitud. La idea es minimizar la suma de cuadrados de las diferencias entre la matriz de correlación y la matriz reproducida al ignorar la diagonal.
La rotación (ortogonal/oblicua) busca dar un panorama más claro de la información contenida en los factores.
La cantidad de factores a retener depende del objetivo del análisis:
Validez de constructos: se define a partir del modelo teórico a validar.
Exploratorio: se usan tantos como valores propios mayores que 1, criterios de codo o regla del 75% de varianza explicada.
El instrumento del DASS tiene tres (3) constructos: Depresión, Ansiedad y Estrés.
[1] 8.4975683 1.4600076 1.1129501 0.9348947 0.8873282 0.7495632 0.7293238
[8] 0.6715998 0.6066248 0.6002174 0.5576655 0.5178489 0.5021825 0.4740528
[15] 0.4539346 0.4407283 0.4110539 0.4053812 0.3755492 0.3438338 0.2676915
El modelo factorial también encuentra 3 factores con valor propio mayor que 1.
De acuerdo con el DASS 21, los ítems por dimensión son:
Call:
factanal(x = df, factors = 3, rotation = "varimax")
Uniquenesses:
Item1 Item2 Item3 Item4 Item5 Item6 Item7 Item8 Item9 Item10 Item11
0.60 0.76 0.53 0.45 0.69 0.62 0.66 0.50 0.58 0.57 0.49
Item12 Item13 Item14 Item15 Item16 Item17 Item18 Item19 Item20 Item21
0.40 0.50 0.55 0.44 0.58 0.64 0.56 0.54 0.45 0.47
Loadings:
Factor1 Factor2 Factor3
Item1 0.58
Item2 0.40
Item3 0.62
Item4 0.60 0.44
Item5 0.44
Item6 0.44
Item7 0.44
Item8 0.65
Item9 0.50
Item10 0.42
Item11 0.64
Item12 0.69
Item13 0.57
Item14 0.46
Item15 0.66
Item16 0.44
Item17 0.45
Item18 0.51
Item19 0.53
Item20 0.65
Item21 0.62
Factor1 Factor2 Factor3
SS loadings 3.78 3.57 2.08
Proportion Var 0.18 0.17 0.10
Cumulative Var 0.18 0.35 0.45
Test of the hypothesis that 3 factors are sufficient.
The chi square statistic is 599.09 on 150 degrees of freedom.
The p-value is 5.9e-55
La matriz de cargas puede diagramarse en rutas, así:
La consistencia interna se mide usando el coeficiente de alpha de Cronbach propuesto en 1951:
\[\alpha =\frac{K \bar\rho}{1+(K-1)\bar\rho} \]
En donde \(K\) es la cantidad de ítems y \(\bar\rho\) es la correlación promedio entre los ítems.
items <- c(3, 5, 10, 13, 16, 17, 21)
depresion <- df |>
select(any_of(paste0("Item", items)))
alpha(depresion)
Reliability analysis
Call: alpha(x = depresion)
raw_alpha std.alpha G6(smc) average_r S/N ase mean sd median_r
0.8 0.81 0.79 0.37 4.2 0.011 0.33 0.39 0.36
95% confidence boundaries
lower alpha upper
Feldt 0.78 0.8 0.82
Duhachek 0.78 0.8 0.82
Reliability if an item is dropped:
raw_alpha std.alpha G6(smc) average_r S/N alpha se var.r med.r
Item3 0.77 0.78 0.75 0.37 3.5 0.012 0.0035 0.36
Item5 0.78 0.79 0.77 0.39 3.8 0.012 0.0032 0.41
Item10 0.77 0.77 0.74 0.36 3.4 0.013 0.0017 0.36
Item13 0.78 0.78 0.76 0.38 3.6 0.012 0.0030 0.36
Item16 0.77 0.77 0.75 0.36 3.4 0.013 0.0031 0.36
Item17 0.78 0.79 0.76 0.38 3.7 0.012 0.0031 0.40
Item21 0.78 0.78 0.75 0.37 3.5 0.012 0.0029 0.36
Item statistics
n raw.r std.r r.cor r.drop mean sd
Item3 800 0.71 0.69 0.61 0.55 0.35 0.67
Item5 800 0.64 0.63 0.53 0.48 0.39 0.61
Item10 800 0.70 0.71 0.66 0.58 0.29 0.55
Item13 800 0.69 0.67 0.59 0.52 0.59 0.66
Item16 800 0.70 0.71 0.65 0.58 0.26 0.54
Item17 800 0.65 0.65 0.56 0.50 0.29 0.59
Item21 800 0.66 0.69 0.62 0.55 0.12 0.42
Non missing response frequency for each item
0 1 2 3 miss
Item3 0.73 0.20 0.05 0.02 0
Item5 0.66 0.30 0.03 0.01 0
Item10 0.76 0.20 0.03 0.01 0
Item13 0.49 0.44 0.06 0.01 0
Item16 0.78 0.20 0.02 0.01 0
Item17 0.76 0.20 0.02 0.02 0
Item21 0.91 0.07 0.01 0.01 0
items <- c(2, 4, 7, 9, 15, 19, 20)
ansiedad <- df |>
select(any_of(paste0("Item", items)))
alpha(ansiedad)
Reliability analysis
Call: alpha(x = ansiedad)
raw_alpha std.alpha G6(smc) average_r S/N ase mean sd median_r
0.8 0.81 0.8 0.39 4.4 0.011 0.31 0.39 0.41
95% confidence boundaries
lower alpha upper
Feldt 0.78 0.8 0.82
Duhachek 0.78 0.8 0.82
Reliability if an item is dropped:
raw_alpha std.alpha G6(smc) average_r S/N alpha se var.r med.r
Item2 0.83 0.83 0.81 0.45 4.9 0.0094 0.0048 0.45
Item4 0.78 0.80 0.78 0.40 3.9 0.0124 0.0149 0.44
Item7 0.77 0.79 0.77 0.38 3.7 0.0130 0.0182 0.41
Item9 0.76 0.78 0.77 0.38 3.6 0.0131 0.0160 0.41
Item15 0.75 0.77 0.75 0.36 3.3 0.0137 0.0122 0.39
Item19 0.76 0.78 0.76 0.37 3.6 0.0134 0.0161 0.40
Item20 0.75 0.77 0.75 0.36 3.4 0.0136 0.0132 0.39
Item statistics
n raw.r std.r r.cor r.drop mean sd
Item2 800 0.55 0.49 0.34 0.31 0.59 0.74
Item4 800 0.62 0.66 0.57 0.50 0.14 0.45
Item7 800 0.69 0.69 0.62 0.56 0.25 0.53
Item9 800 0.71 0.71 0.65 0.57 0.34 0.60
Item15 800 0.76 0.78 0.75 0.66 0.20 0.49
Item19 800 0.73 0.73 0.67 0.59 0.38 0.64
Item20 800 0.74 0.76 0.72 0.63 0.27 0.52
Non missing response frequency for each item
0 1 2 3 miss
Item2 0.54 0.34 0.10 0.02 0
Item4 0.90 0.08 0.02 0.01 0
Item7 0.78 0.19 0.02 0.01 0
Item9 0.72 0.23 0.04 0.01 0
Item15 0.83 0.15 0.02 0.01 0
Item19 0.69 0.26 0.04 0.02 0
Item20 0.76 0.21 0.02 0.01 0
items <- c(1, 6, 8, 11, 12, 14, 48)
estres <- df |>
select(any_of(paste0("Item", items)))
alpha(estres)
Reliability analysis
Call: alpha(x = estres)
raw_alpha std.alpha G6(smc) average_r S/N ase mean sd median_r
0.82 0.83 0.81 0.44 4.8 0.0094 0.55 0.5 0.43
95% confidence boundaries
lower alpha upper
Feldt 0.8 0.82 0.84
Duhachek 0.8 0.82 0.84
Reliability if an item is dropped:
raw_alpha std.alpha G6(smc) average_r S/N alpha se var.r med.r
Item1 0.81 0.81 0.78 0.46 4.3 0.010 0.0044 0.45
Item6 0.81 0.81 0.78 0.47 4.4 0.010 0.0057 0.48
Item8 0.79 0.79 0.76 0.44 3.9 0.012 0.0053 0.43
Item11 0.79 0.80 0.77 0.44 3.9 0.011 0.0070 0.44
Item12 0.77 0.78 0.74 0.41 3.5 0.013 0.0031 0.41
Item14 0.80 0.81 0.77 0.45 4.1 0.011 0.0060 0.44
Item statistics
n raw.r std.r r.cor r.drop mean sd
Item1 800 0.72 0.69 0.60 0.55 0.71 0.79
Item6 800 0.66 0.68 0.58 0.52 0.45 0.62
Item8 800 0.77 0.75 0.69 0.63 0.71 0.77
Item11 800 0.74 0.74 0.67 0.61 0.58 0.64
Item12 800 0.82 0.81 0.78 0.71 0.58 0.70
Item14 800 0.68 0.71 0.63 0.56 0.28 0.52
Non missing response frequency for each item
0 1 2 3 miss
Item1 0.47 0.39 0.11 0.04 0
Item6 0.61 0.35 0.03 0.01 0
Item8 0.44 0.43 0.09 0.03 0
Item11 0.50 0.44 0.06 0.01 0
Item12 0.52 0.40 0.05 0.03 0
Item14 0.75 0.23 0.03 0.00 0
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297–334.
Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2006). Multivariate data analysis 6th Edition. https://doi.org/10.1201/9780367409913
Fabrigar, L. R., & Wegener, D. T. (2012). Exploratory Factor Analysis. Oxford University Press.
Aldás Manzano, J., & Uriel Jiménez, E. (2017). Análisis multivariante aplicado con R. Ediciones Paraninfo, SA.
Diapositivas disponibles en GitHub.